# -------------------------------------------------------------------
#       -*- coding: utf-8 -*-
#   @Project    :   spider
#   @File       :   22_dytt89_re.py
#   @Author     :   WANGYU
#   @Time       :   2021-08-17 11:04:14
#   @Software   :   PyCharm
#   @Desc       :   
# -------------------------------------------------------------------


# 1.定位到2021必看热片
# 2.从2021必看热片中提取子页面链接地址
# 3.请求子页面到链接地址，拿到页面下载地址

import requests
import re

domain = 'https://dytt89.com/'
# resp = requests.get(domain, verify=False)  # 取消安全验证
resp = requests.get(domain)
resp.encoding = 'gb2312'  # 指定字符集
# print(resp.text)

# 拿到ul到li
obj1 = re.compile(r'2021必看热片.*?<ul>(?P<ul>.*?)</ul>', re.S)
# 提取子页面链接
obj2 = re.compile(r"<a href='(?P<href>.*?)'", re.S)
obj3=re.compile(r'◎片　　名(?P<movie>.*?)<br />.*?<td style="WORD-WRAP: '
                r'break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">', re.S)

result1 = obj1.finditer(resp.text)
child_href_list = []
for it in result1:
    ul = it.group('ul')
    # print(ul)

    # 提取子页面链接
    result2 = obj2.finditer(ul)
    for itt in result2:
        # print(itt.group('href'))
        # 拼接子页面到url地址：域名+子页面链接
        child_href = domain + itt.group('href').strip("/")
        # print(child_href)
        child_href_list.append(child_href)  # 把子页面链接保存到列表中

# 提取子页面内容
for href in child_href_list:
    child_resp = requests.get(href)
    child_resp.encoding = 'gb2312'
    # print(child_resp.text)

    result3 = obj3.search(child_resp.text)
    print(result3.group('movie'))
    print(result3.group('download'))
    # break




'''
2021必看热片</span><em style="float:right;"><a href="/html/bikan/">更多>></a></em></p></div>
                <div class="co_content222">
                    <ul>
                        <li><a href='/i/103835.html' title="2020年日本7.3分动画《哆啦A梦：伴我同行2》BD国粤日三语中字">2020年日本7.3分动画《哆啦A梦：伴我同行2》BD国粤日三语中字</a><span><font color=#FF0000>07-10</font></span></li>
<li><a href='/i/103848.html' title="2021年美国6.6分科幻惊悚片《寂静之地2》BD中英双字">2021年美国6.6分科幻惊悚片《寂静之地2》BD中英双字</a><span><font color=#FF0000>06-29</font></span></li>
<li><a href='/i/103813.html' title="2021年日本8.0分动作冒险片《浪客剑心 最终章 人诛篇》BD中字">2021年日本8.0分动作冒险片《浪客剑心 最终章 人诛篇》BD中字</a><span><font color=#FF0000>06-21</font></span></li>
<li><a href='/i/103808.html' title="2021年国产7.6分动作悬疑片《悬崖之上》HD国语中字">2021年国产7.6分动作悬疑片《悬崖之上》HD国语中字</a><span><font color=#FF0000>06-20</font></span></li>
<li><a href='/i/103562.html' title="2020年日本动画片《鬼灭之刃 剧场版 无限列车篇》BD国粤日中字">2020年日本动画片《鬼灭之刃 剧场版 无限列车篇》BD国粤日中字</a><span><font color=#FF0000>06-18</font></span></li>
<li><a href='/i/103778.html' title="2021年中国香港动作犯罪片《追虎擒龙》HD国语中字">2021年中国香港动作犯罪片《追虎擒龙》HD国语中字</a><span><font color=#FF0000>06-12</font></span></li>
<li><a href='/i/103772.html' title="2021年国产悬疑惊悚片《秘密访客》HD国语中字">2021年国产悬疑惊悚片《秘密访客》HD国语中字</a><span><font color=#FF0000>06-11</font></span></li>
<li><a href='/i/103751.html' title="2021年美国9.4分喜剧爱情片《老友记重聚特辑》BD中英双字">2021年美国9.4分喜剧爱情片《老友记重聚特辑》BD中英双字</a><span><font color=#FF0000>06-04</font></span></li>
<li><a href='/i/103223.html' title="2020年国产刘德华刘青云动作犯罪片《拆弹专家2》BD国粤双语中字">2020年国产刘德华刘青云动作犯罪片《拆弹专家2》BD国粤双语中字</a><span><font color=#FF0000>06-04</font></span></li>
<li><a href='/i/103741.html' title="2021年欧美悬疑惊悚片《电锯惊魂9：漩涡》BD中英双字">2021年欧美悬疑惊悚片《电锯惊魂9：漩涡》BD中英双字</a><span><font color=#FF0000>06-02</font></span></li>
<li><a href='/i/103726.html' title="2021年国产6.4分动作犯罪片《扫黑·决战》HD国语中字">2021年国产6.4分动作犯罪片《扫黑·决战》HD国语中字</a><span><font color=#FF0000>05-30</font></span></li>
<li><a href='/i/103712.html' title="2021年欧美7.0分动作犯罪片《人之怒》BD中英双字幕精译版">2021年欧美7.0分动作犯罪片《人之怒》BD中英双字幕精译版</a><span><font color=#FF0000>05-30</font></span></li>
<li><a href='/i/103566.html' title="2021年国产喜剧悬疑片《唐人街探案3》BD国语中字">2021年国产喜剧悬疑片《唐人街探案3》BD国语中字</a><span><font color=#FF0000>05-25</font></span></li>
<li><a href='/i/103690.html' title="2021年美国动作恐怖片《活死人军团》BD中英双字">2021年美国动作恐怖片《活死人军团》BD中英双字</a><span><font color=#FF0000>05-22</font></span></li>
<li><a href='/i/103685.html' title="2019年中国台湾8.5分家庭犯罪片《阳光普照》HD国语中字">2019年中国台湾8.5分家庭犯罪片《阳光普照》HD国语中字</a><span><font color=#FF0000>05-21</font></span></li>
                    </ul>
'''
